我们引入了一个可扩展的框架,用于从RGB-D图像中具有很大不完整的场景覆盖率的新型视图合成。尽管生成的神经方法在2D图像上表现出了惊人的结果,但它们尚未达到相似的影像学结果,并结合了场景完成,在这种情况下,空间3D场景的理解是必不可少的。为此,我们提出了一条在基于网格的神经场景表示上执行的生成管道,通过以2.5D-3D-2.5D方式进行场景的分布来完成未观察到的场景部分。我们在3D空间中处理编码的图像特征,并具有几何完整网络和随后的纹理镶嵌网络,以推断缺失区域。最终可以通过与一致性的可区分渲染获得感性图像序列。全面的实验表明,我们方法的图形输出优于最新技术,尤其是在未观察到的场景部分中。
translated by 谷歌翻译
最近已结合了进化算法(EAS)和深度加强学习(DRL)以集成两个解决方案的优势以获得更好的政策学习。然而,在现有的混合方法中,EA用于直接培训策略网络,这将导致对政策绩效的样本效率和不可预测的影响。为了更好地整合这两种方法并避免引入EA引起的缺点,我们致力于设计更有效和合理的结合EA和DRL的方法。在本文中,我们提出了进化行动选择 - 双胞胎延迟深度确定性政策梯度(EAS-TD3),是EA和DRL的新组合。在EAS中,我们专注于优化策略网络选择的动作,并尝试通过进化算法来指导策略学习的高质量行动。我们对挑战的连续控制任务进行了几个实验。结果表明,EAS-TD3在其他最先进的方法中显示出优异的性能。
translated by 谷歌翻译
本文介绍了一种新型的基于学习的服装变形方法,为各种动画中的各种形状佩戴的服装产生丰富和合理的详细变形。与现有的基于学习的方法相比,需要为不同的服装拓扑或姿势进行众多培训的型号,并且无法轻易实现丰富的细节,我们使用统一的框架有效且容易地产生高保真变形。为了解决预测受多源属性影响的变形的具有挑战性问题,我们提出了三种策略从新颖的角度来看。具体而言,我们首先发现衣服和身体之间的配合对折叠程度具有重要影响。然后,我们设计了一个属性解析器,以生成详细信息感知的编码并将它们注入图形神经网络,从而增强了各种属性下的细节的辨别。此外,为了实现更好的收敛并避免过度平稳变形,我们提出了输出重建以减轻学习任务的复杂性。实验结果表明,我们所提出的变形方法在泛化能力和细节质量方面实现了更好的现有方法。
translated by 谷歌翻译
查询图形构建旨在通过知识图构建正确的可执行SPARQL以应答自然语言问题。虽然最近的方法通过基于NN的查询图排名进行了良好,但更复杂的问题带来了三个新的挑战:复杂的SPARQL语法,排名的巨大搜索空间,以及当地歧义的嘈杂查询图。本文处理了这些挑战。最初,我们将常见的复杂sparql语法视为包括顶点和边缘的子图,并提出了一个新的统一查询图语法来调整它们。随后,我们提出了一种新的两阶段方法来构建查询图。在第一阶段,通过简单的策略作为候选实例收集了顶级的k $相关的实例(实体,关系等)。在第二阶段,图形生成模型执行分层生成。它首先概述了一个图形结构,其顶点和边缘是空插槽,然后将适当的实例填充到槽中,从而完成查询图。我们的方法将整个查询图的无法忍受的搜索空间分解为经济实惠的操作子空间,同时利用全局结构信息来消除局部歧义。实验结果表明,我们的方法大大提高了最坚定的kgqa基准,在复杂问题上具有出色的性能。
translated by 谷歌翻译
In this work, we explore a useful but often neglected methodology for robustness analysis of text generation evaluation metrics: stress tests with synthetic data. Basically, we design and synthesize a wide range of potential errors and check whether they result in a commensurate drop in the metric scores. We examine a range of recently proposed evaluation metrics based on pretrained language models, for the tasks of open-ended generation, translation, and summarization. Our experiments reveal interesting insensitivities, biases, or even loopholes in existing metrics. For example, we find that BERTScore ignores truncation errors in summarization, and MAUVE (built on top of GPT-2) is insensitive to errors at the beginning of generations. Further, we investigate the reasons behind these blind spots and suggest practical workarounds for a more reliable evaluation of text generation.
translated by 谷歌翻译
作为一个自我监督的学习范式,对比度学习已被广​​泛用于预训练强大的编码器,作为各种下游任务的有效提取器。此过程需要大量未标记的培训数据和计算资源,这使得预培训的编码器成为所有者的宝贵知识产权。但是,缺乏对下游任务的先验知识,因此通过采用常规的水印方法来保护预训练编码器的知识产权并非平凡。为了解决这个问题,在本文中,我们介绍了Awencoder,这是一种对比度学习中预训练的编码器的对抗方法。首先,作为对抗性扰动,通过执行要标记的训练样品来偏离各自位置并包围嵌入空间中随机选择的关键图像来生成水印。然后,通过进一步优化关节损耗函数,将水印嵌入了预训练的编码器中。结果,水印编码器不仅在下游任务方面表现出色,而且还使我们能够通过分析使用Encoder作为白盒和黑盒条件下的骨架来验证其所有权。广泛的实验表明,拟议的工作对不同的对比度学习算法和下游任务具有相当良好的有效性和鲁棒性,这已经验证了拟议工作的优越性和适用性。
translated by 谷歌翻译
由于如今的面部操纵技术可以很容易地产生逼真的面孔,因此对这些技术的潜在恶意滥用引起了极大的关注。因此,提出了许多深泡检测方法。但是,现有方法仅着眼于检测一步面部操作。随着易于访问的面部编辑应用的出现,人们可以使用多步操作以顺序的方式轻松操纵面部组件。这种新威胁要求我们检测一系列面部操作,这对于发现深冰媒体和之后恢复原始面孔至关重要。在这一观察结果的激励下,我们强调了需求,并提出了一个新的研究问题,称为检测顺序的Deepfake操纵(Seq-Deepfake)。与现有的DeepFake检测任务仅需要二进制标签预测,检测Seq-Deepfake操作需要正确预测面部操作操作的顺序向量。为了支持大规模研究,我们构建了第一个Seq-Deepfake数据集,在该数据集中,通过顺序面部操纵向量的相应注释,将面部图像顺序操纵。基于此新数据集,我们将检测到Seq-Deepfake操作作为特定图像到序列(例如图像字幕)任务,并提出简洁而有效的Seq-Deepfake Transferaler(SEQFAKEFORMER)。此外,我们为这个新的研究问题建立了全面的基准,并设置了严格的评估协议和指标。广泛的实验证明了seqfakeformer的有效性。还揭示了几种有价值的观察结果,以促进更广泛的深层检测问题的未来研究。
translated by 谷歌翻译
在计算机愿景中已经过了很长一段时间的3D表示和人体重建。传统方法主要依赖于参数统计线性模型,将可能的身体的空间限制在线性组合。近来,一些方法才试图利用人体建模的神经隐式表示,同时展示令人印象深刻的结果,它们是通过表示能力的限制或没有物理有意义和可控的。在这项工作中,我们提出了一种用于人体的新型神经隐含表示,其具有完全可分辨:无戒开的形状和姿势潜在空间的优化。与事先工作相反,我们的代表是基于运动模型设计的,这使得可以为姿势动画等任务提供可控制的表示,同时允许为3D配件和姿势跟踪等任务进行整形和姿势。我们的模型可以直接培训和精细调整,直接在具有精心设计的损失的非水密原始数据上。实验展示了SOTA方法的改进的3D重建性能,并显示了我们的方法来形状插值,模型拟合,姿势跟踪和运动重新定位的适用性。
translated by 谷歌翻译
In this paper, we propose a robust 3D detector, named Cross Modal Transformer (CMT), for end-to-end 3D multi-modal detection. Without explicit view transformation, CMT takes the image and point clouds tokens as inputs and directly outputs accurate 3D bounding boxes. The spatial alignment of multi-modal tokens is performed implicitly, by encoding the 3D points into multi-modal features. The core design of CMT is quite simple while its performance is impressive. CMT obtains 73.0% NDS on nuScenes benchmark. Moreover, CMT has a strong robustness even if the LiDAR is missing. Code will be released at https://github.com/junjie18/CMT.
translated by 谷歌翻译
Dataset distillation has emerged as a prominent technique to improve data efficiency when training machine learning models. It encapsulates the knowledge from a large dataset into a smaller synthetic dataset. A model trained on this smaller distilled dataset can attain comparable performance to a model trained on the original training dataset. However, the existing dataset distillation techniques mainly aim at achieving the best trade-off between resource usage efficiency and model utility. The security risks stemming from them have not been explored. This study performs the first backdoor attack against the models trained on the data distilled by dataset distillation models in the image domain. Concretely, we inject triggers into the synthetic data during the distillation procedure rather than during the model training stage, where all previous attacks are performed. We propose two types of backdoor attacks, namely NAIVEATTACK and DOORPING. NAIVEATTACK simply adds triggers to the raw data at the initial distillation phase, while DOORPING iteratively updates the triggers during the entire distillation procedure. We conduct extensive evaluations on multiple datasets, architectures, and dataset distillation techniques. Empirical evaluation shows that NAIVEATTACK achieves decent attack success rate (ASR) scores in some cases, while DOORPING reaches higher ASR scores (close to 1.0) in all cases. Furthermore, we conduct a comprehensive ablation study to analyze the factors that may affect the attack performance. Finally, we evaluate multiple defense mechanisms against our backdoor attacks and show that our attacks can practically circumvent these defense mechanisms.
translated by 谷歌翻译